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PROCEDE DEVALUATION QUALITATIVE D'UN SIGNAL AUDIO 
NUMERIQUE. 

La presente invention a pour objet un procede devaluation d f un 
signal audio numerique, notamment un signal transmis numeriquement et/ou un signal 
5 numerique auquel a ete applique un codage numerique, en particulier avec reduction 
de debit et/ou un decodage. Un signal transmis numeriquement peut etre un signal 
audio autonome (radiodiffusion) ou bien d'un signal audio qui accompagne un 
programme tel qu'un programme audiovisuel. 

Le domaine des radiocommunications numeriques et de la 
10 radiodiffusion est en pleine expansion, notamment avec I'apparition de la television 
numerique et des radiotelephones. De nouveaux instruments doivent ainsi etre 
developpes pour mesurer la qualite de tous les systemes necessaires a la mise en 
oeuvre de cette technologie, et ainsi pouvoir assurer une qualite de service* 

Cest dans ce but que sont utilises les tests subjectifs. Ces tests 
15 permettent de juger la qualite de signaux sonores en les faisant ecouter par des 
auditeurs, experts ou novices. Cette methode est longue et couteuse car les conditions 
a respecter lors de ces tests sont nombreuses et strictes (choix des panelistes, : 
conditions d'ecoute, sequences, chronologie des tests, etc..,). Elte permet neanmoins ' 
de constituer des bases de donnees de signaux de reference avec les notes qui leur ont 
20 ete attributes. Ce sont ces tests qui permettent d'obtenir les notes "MOS" (Mean 
Opinion Score), notes qui sont reconnues comme etant la reference en matiere'' 
d'estimation de la qualite. 

Pour essayer de reduire au minimum le nombre de ces essais 
subjectifs, de nombreuses etudes ont ete realisees sur le systeme d'audition humain. A 
25 partir de la, des moderations de Toreille et des phenomenes psychoacoustiques ont 
ete developpees, ce qui a permis d'analyser puis estimer la qualite des signaux sonores 
par des methodes objectives. La qualite mesuree etant celle perdue par l'oreille 
humaine, elle est nommee qualite perceptueile objective. 

II est possible de differencier trois classes de methodes de 
30 qualification objective : La premiere ("reference complete") compare directement le 
signal original au signal degrade (apres codage, diffusion, multiplexage,...), la 
seconde compare uniquement des parametres extraits des deux signaux (nommes 
reference reduite). Dans la troisiSme, les defauts generes par la chame de diffusion 
sont detectes a Taide de leurs principales caracteristiques connues. Cette derniere 
35 classe permet de s*affranchir des contraintes liees a I'utilisation du signal de reference. 
En effet, dans tous les autres cas, la reference doit etre transmise au lieu - de 
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coniparoison puis parfaifement synchronised avec le signal degrade. Cela rend ie 
systeme complete et plus couteux. 

Les degradations dues aux erreurs de transmission diminuent de 
maniere importanle la qualite du signal. Elles apparaissent lors de la diffusion, d'un 
5 flux numerique MPEG par exemple ou lors de la diffusion, notamment de radio, sur 
Internet. 

Dans un tel contexte, il est souhaitable de disposer d'un procede qui 
permette de mesurer objectivement la qualite d ! un signal audio apres diffusion, sans 
utiliser de signal de reference et/ou en utilisant une reference reduite. En effet, seules 

10 ces techniques sont adaptees a la surveillance d'un reseau de diffusion par exemple ou 
plusieurs points de mesure distants les uns des autres peuvent etre necessaires. II est 
egalement jnteressant de profiter de la simplicite relative d'un tel procede pour 
mesurer la qualite d'un signal audio numerique transmis ou non, qui a ete soumis a un 
codage numerique, notamment a reduction de debit, et/ou a un decodage. 

15 Le nombre de methodes de qualitometrie audio developpees est tres 

variable selon la classe consideree. En effet, un grand nombre de methodes avec 
reference complete ont ete developpees. Quelques methodes seulement ont ete mises 
au point sans reference ou avec reference reduite. 

Les methodes avec reference complete pour lesquelles le signal a 

20 evaluer est compare au signal de reference correspondent aux techniques classiques 
utilisees pour estimer la qualite des codeurs audio par exemple. Leur principe general 
se base sur le calcul, par rintermediaire d r un modele perceptuel d ! audition, d'une 
representation interne du signal original et du signal degrade puis, sur une 
comparaison de ces deux representations internes. Une telle methode est decrite dans 

25 l'article de John G. BEERENDS et JAN A. STEMERDINK intitule "A Perceptual 
Audio Quality Measure Based on a Psychoacoustic Sound Representation", publie 
dans "Journal of Audio Engineering Society", vol. 12, Decembre 1992, pages 963 a 
978. 

Ces modeles d'audition sont etablis a partir d'experiences de 
30 masquage, afin d ! obtenir une representation qui soit la plus fidele possible, et doivent 
permettre de prevoir si les deteriorations seront audibles ou non. Toutes les 
degradations sur un signal ne sont pas audibles ni genantes. Ces modeles perceptuels 
avec reference se basent sur le schema de la Figure 1. De nombreuses methodes, plus 
ou moins completes et elaborees, reposent sur ce principe. Recemment, 1'algorithme 
35 PEAQ, (Method for objective measurements of PErceived Audio Quality) a ete 
normalise par TITU-R (Norme ITU-R BS.1387). Cet algorithme se base sur les 
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principes classiques en y associant un modele de prediction de la qualite utilisant un 
reseau de neurones. 

L'interet majeur de ces techniques est de pouvoir detecter de tres 
faibles degradations mais, il faut bien avoir a Pesprit qu ! el!es sont destinees a etudier 
5 P influence d'un codage. Les mesures obtenues sont relatives : seule la difference est 
prise en compte dans ce type de mesures. Dans le cas d'un codeur de tres bonne 
qualite, un signal comportant des degradations importantes sera code puis decode de 
fafon presque transparente, et done, la note attribute sera tres haute. De plus, pour un 
signal qui aurait ete modifie (egalise, colore, ...) entre Ie calcul de la reference et la 
10 comparaison, la note pourra etre faible meme si les deux signaux sont de tres bonne 
qualite perceptuelle. 

En ce qui concerne les methodes sans reference, celles-ci restent tres 
peu nombreuses. La mesure OBQ (Output-Based Objective Speech Quality) est la 
plus aboutie des techniques sans reference. Cette methode d'estimation de la qualite, 
15 d'un signal de parole uniquement, sans signal de reference, se base sur le calcul de 
parametres perceptuels representant le contenu du signal, rassembles en un vecteun , 
Ces vecteurs, calcules sur des signaux non degrades, vont constituer une base de s 
reference. La qualite sera estimee en comparant les memes parametres, extraits des . 
signaux degrades, aux vecteurs de la base de reference. La principale methode ; 
20 utilisant les reseaux de neurones est la mesure OSSQAR (Objective Scaling of Sound :i 
Quality And Reproduction). Le principe general de cette methode est d'utiliser un : 
modele d'audition conjointement a un reseau de neurones. Le reseau est entraine a 
predire la qualite subjective d'un signal a partir de sa representation perceptuelle 
calculee par le modele d'audition, pour simuler les phenomenes de la 
25 psychoacoustique. II est a noter que les resultats obtenus par ces methodes, sont bien 
meilleurs quand les signaux font partie de la base d'apprentissage ou tout du moins 
quand ils ont des caracteristiques proches. 

De telles methodes ne sont done pas adaptees a Pevaluation de la 
qualite de signaux quelconques, par exemple les signaux audio d'une emission de 
30 radio ou de TV. 

Comme indique ci-dessus, la plupart des algorithmes de mesures 
perceptuelles objectives avec reference complete fonctionnent suivant un principe 
identique : il s'agit de comparer le signal sonore degrade au signal original (signal 
avant transmission et/ou codage et/ou decodage, appele signal de reference). Ces 
35 algorithmes necessitent done d'avoir un signal de reference, qui soit de plus 
synchronise tres precisement avec le signal a tester. Ces conditions peuvent seulement 



eirc remplies en simulation ou lors de tests de codeurs et autres syslemes "compacts" 
ou non repartis geopraphiquement ; par cot if re, cela est tres different lors de la 
reception d'un signal diffuse a partir d'antennes d'emission Ai et de reception A 2 
(Figure 2). 

5 Le signal de reference doit etre disponible aux different* points de 

comparaison. Aussi, pour pouvoir utiliser une methode avec reference complete, la 
seule possibility est de transmettre la reference, sans erreur, jusqu'aux points de 
comparaison, puis de la synchroniser parfaitement. Pour des raisons d'encombrement 

du spectre et done de cout, ces techniques avec reference complete ne sont pas 

10 applicables en pratique, car elles necessiteraient 1'utilisation d'une deuxieme voie de 
transmission transparente. 

Les methodes sans reference proposees permettent d'obtenir de bons 
resultats mais seulement dans le cas de signaux aux caracteristiques connues et 
modelisees lors de la phase d'apprentissage. Les methodes sans reference fonctionnent 
15 done mal sur un signal quelconque. 

II a ete suggere d'utiliser une reference dite "radiate" dans laquelle le 
signal audio de reference est caracterise par un ou plusieurs nombres. Un tel procede a 
ete decrit dans la Demande de Brevet frangais FR 2 769 777 deposee le 13 Octobre 
1997. Cependant, ce procede ne permet pas de traiter tous les echantillons, en raison 
20 notamment du fait que le debit du signal de reference propose est trop important (au 
moins 36 kbits/s pour des fenetres de 1024 echantillons de signal) pour satisfaire aux 
conditions pratiques d'implantation et de realisation dans un reseau de telediffusion. 

La presente invention propose un procede selon lequel les 
indicateurs sont plus simples et peuvent etre calcules en temps reel et en temps 
25 continu, et demandent un debit binaire nettement moins eleve. Les degradations 
pouvant ne modifier que quelques echantillons, tout en degradant la qualite de 
maniere importante, le procede propose permet que tout le flux audio soit analyse. 

Le procede selon ^invention permet une estimation fiable de la 
qualite d'un signal audio ayant transite par une transmission ou un codage de type 
30 numerique. En effet, les perturbations que subissent les canaux de transmission 
peuvent induire Tapparition d'erreurs sur les donnees transmises ; ces erreurs se 
traduisent par des degradations au niveau du signal audio final. 

L'approche technologique proposee consiste a effectuer une mesure 
sur le signal audio, a Ten tree et une autre a la sortie la chatne ou tout autre systeme a 
35 etudier. Une comparaison entre ces mesures permet de s'assurer de la "transparence" 
du canal de transmission et d'evaluer Timportance des degradations introduces. 
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Utilisee conjointement ou non avec des methodes sans reference, 
detectant ies degradations en se basant sur la signature des caracteristiques des defauts 
les plus importants a rechercher, I'approche proposee permet une estimation fiable des 
degradations introduites. Elle permet en outre de palier a un manque de signal de 
reference. Cette methode permet de reduire ie debit de reference necessaire pour 
l'estimation de la qualite dans le cas des mesures avec reference reduite, et Ie nombre 
de parametres a utiliser dans le cas des mesures sans reference. 

L'invention concerne ainsi un precede devaluation d'un signal audio 
numerique, caracterise en ce qu'il met en ceuvre en temps reel et en temps continu, 
dans les fenetres temporelles successes, le calcul d'un indicateur de qualite constitue, 
pour chaque fenetre temporelle d'un vecteur dont la dimension est avantageusement au 
moins cent fois inferieure au nombre d'echantillons audio d'une fenetre temporelle. 
Cette dimension est par exemple comprise entre 1 et 10 et de preference entre 1 et 5. 

Le signal audio numerique a evaluer peut etre un signal qui a ete 
transmis numeriquement et/ou qui a ete soumis a un codage numerique, notamment a 
reduction de debit, a partir d'un signal numerique de reference. 

Selon une premiere variante, mettant en oeuvre un ecart de comptes, 
perceptuels, le precede est caracterise en ce que la generation d'un dit vecteur. 
indicateur de qualite met en oeuvre pour un signal audio de reference et pour le signal 
20 audio a evaluer, les etapes suivantes : 

a) calculer pour chaque fenetre temporelle la densite spectrale de 
puissance du signal audio et lui appliquer un filtre representatif de I 'attenuation de 
1 'oreille interne et moyenne, pour obtenir une densite spectrale filtree, 

b) calculer a partir de cette densite spectrale filtree les excitations 
25 individuelles a 1'aide de la fonction d'etalement frequentiel dans 1'echelle basilaire, 

c) determiner a partir desdites excitations individuelles la sonie 
compressee a 1'aide d'une fonction modelisant la sensibilite non lineaire en frequence 
de 1 'oreille, pour obtenir des composantes basilaires, 

d) separer les composantes basilaires en classes, de preference en 
30 trois classes, et calculer pour chaque classe un nombre C representant la somme des 

frequences de cette classe, ledit vecteur etant constitue par lesdits nombres C, 

e) calculer une distance entre les vecteurs du signal audio de 
reference et du signal audio a evaluer associes a chaque fenetre temporelle pour 
realiser une dite evaluation de la degradation de signal audio. 

35 Se,on une deuxieme variante, mettant en oeuvre une moderation 

auto-regressive du signal audio, le precede est caracterise en ce que la generation d'un 
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dit vecteur indicates de quality met en ceuvre. pour le signal audio de reference et 
pour le signal audio a evaluer, les etapes suivantes : 

a) calculer N coefficients dun filtre de prediction par une 

modelisation autoregressive . 
5 b) determiner dans chaque fenetre temporelle le maximum du residu 

par difference entre le signal predit a I'aide du filtre de prediction et le signal audio, 
ledit maximum du residu de prediction constituant ledit vecteur indicateur de qualite, 

c) calculer une distance entre lesdits vecteurs du signal audio de 
reference et du signal audio a evaluer associes a chaque fenetre temporelle pour 

lo reaiiser une dite evaluation de la degradation du signal-audit* 

Selon une troisieme variante, mettant en oeuvre une modelisation 
auto-regressive de l'excitation basilaire, le precede est caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre pour le signal audio de 
reference et pour le signal audio a evaluer, les etapes suivantes : 
15 a ) calculer pour chaque fenetre temporelle la densite spectrale de 

puissance du signal audio et lui appliquer un filtre representatif de 1' attenuation de 
Toreille interne et moyenne, pour obtenir une fonction d'etalement frequentiel dans 

I'echelle basilaire, 

b) calculer des excitations individuelles a partir de la fonction 

20 d'etalement frequentiel dans I'echelle basilaire, 

c) obtenir a partir desdits excitations individuelles la sonie 
compressee a I'aide d*une fonction modelisant la sensibilite non lineaire en frequence 
de Toreille, pour obtenir des composantes basilaires , 

d) calculer a partir desdites composantes basilaires N' coefficients 
25 de prediction d'un filtre de prediction par une modelisation autoregressive. 

e) generer pour chaque fenetre temporelle un dit vecteur indicateur 
de qualite a partir de certains seulement des N' coefficients de prediction. 

De preference, le vecteur indicateur de qualite comporte entre 5 et 

10 desdits coefficients de prediction. 
30 Selon une quatrieme variante, mettant en oeuvre une detection de 

plats dans I'activite du signal, le procede est caracterise en ce que la generation d'un 
dit vecteur indicateur de qualite met en oeuvre au moins pour le signal audio a evaluer 

les etapes suivantes : 

a) calcul d'une activite temporelle du signal dans chaque fenetre 

35 temporelle, 



7 



10 



35 



b) calculer une moyenne glissante sur Ni valeurs successives de 
I'activite temporelle, 

c) conserver la valeur minimale parmi M, valeurs successives de la 
moyenne glissante. 

Le vecteur indicateur de qualite peut etre constitue par ladite valeur 
minimale, ou bien encore par une valeur binaire resultant de la comparaison de ladite 
valeur minimale avec un seuii donne. Egalement, le procede peut etre caracterise en ce 
qu'il met en oeuvre le calcul d'une note de qualite en determinant un intervalle de 
temps cumule pendant lequel ladite valeur minimale est inferieure a un seuil donne 
et/ou en determinant le nombre de fois par seconde ou ladite valeur minimale est 
inferieure a un seuil donne ou bien encore en ce que lesdites valeurs minimales sont 
generees a la fois pour le signal audio de reference et pour le signal audio a evaluer et 
en ce qu'un vecteur de qualite est genere par comparaison entre les valeurs minimales 
correspondantes du signal audio de reference et du signal audio a evaluer, par exemple 
15 en calculant la difference ou le rapport entre lesdites valeurs minimales. 

Selon une cinquieme variante mettant en oeuvre une detection des • 
pics de I'activite du signal audio, le procede est caracterise en ce que la generation : 
d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal audio a 
evaluer les etapes suivantes : 

a) calculer une activite temporelle du signal dans chaque fenetre . 
temporelle, 

b) calculer une moyenne glissante sur N 2 valeurs successives de 
I'activite temporelle, 

c) conserver la valeur maximale parmi M 2 valeurs successives de 
25 la moyenne glissante. 

Le vecteur indicateur de qualite peut etre constitue par ladite valeur 
maximale ou bien par une valeur binaire resultant de la comparaison de ladite valeur 
minimale avec un seuil donne. 

Le procede peut etre caracterise en ce qu'un indicateur de 
degradation est genere par comparaison entre la valeur maximale obtenue sur le signal 
audio de reference et sa valeur maximale correspondante obtenue sur le signal audio a 
evaluer, par exemple en calculant la difference ou le rapport entre ces valeurs 
maximal es. 

Selon une sixieme variante mettant en oeuvre le calcul de minimum 
du spectre du signal audio, le procede est caracterise en ce que la generation d'un dit 
vecteur indicateur de qualite met en oeuvre au moins pour le signal audio a evaluer le 
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uaicul uc U i.ansformcc dc Fourier dans des blocs $..rr^jfs de N» echantillons 
constituani desdites fenetres lemporelles ct calculer le minimum du spectre dans Mj 
blocs successifs qui constituent un vecteur indicateur de qualite. 

Le procede peut etre caracterise en ce qu'il comporte une etape 
5 d'evaluation de Introduction de bruit dans le signal audio a evaluer en comparant la 
valeur dudit minimum du spectre dans Mj blocs successifs associes au signal audio a 
evaluer avec la valeur maximale des M s minima obtenues dans les M, memes blocs 
successifs associes signal audio de reference. 

II peut etre 6galement caracterise en ce qu'il en ce qu'il comporte 
— une 6t ape d'evaluation de Introduction de bruit dans le signal audio a evaluer-en 
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comparant la valeur dudit minimum du spectre dans M 3 blocs successifs avec une 
valeur moyenne des minima du spectre obtenus dans des blocs anterieurs aux M 3 blocs 
successifs, par exemple en calculant la difference ou le rapport entre ces valeurs 
moyennes. 

Selon une septieme variante, mettant en oeuvre une estimation de 
l'aplatissement du spectre du signal audio, le procede est caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer le calcul d'un parametre d'aplatissement du spectre qui est le rapport 
entre une moyenne arithmetique et une moyenne geometrique des composantes du 
20 spectre du signal. 

Le procede peut etre alors caracterise en ce qu'il met en oeuvre un 
indicateur de detection d'une degradation du signal audio par introduction d'un bruit 
large bande en comparant ledit parametre d'aplatissement du spectre entre le signal 
audio de reference et le signal audio a evaluer, par exemple en calculant la difference 
25 ou le rapport entre ces deux parametres. 

D'autres caracteristiques et avantages de l'invention apparattront 
mieux a la lecture de la description ci-apres en liaison avec les dessins dans lesquels : 

- la figure 1 est un organigramme illustrant une evaluation de qualite 
a reference complete. 

30 . la figure 2 illustre une transmission audio avec perte de qualite, 

- les figures 3 a 10 illustrent des procedes d'evaluation selon la 

presente invention, 

- et les figures 11 et 12 illustrent un systeme de qualitometrie audio 

mettant en oeuvre la presente invention. 



9 



La gestion et la recuperation des erreurs au decodage n'est pas 
normalisee. L'influence de ces erreurs sur la qualite percue depend done du decodeur 
utilise. 

L'audibilite de ces defauts est egalement liee au type d'element 
5 affecte dans la trame, par exemple MPEG, et a son contenu audio. 

Dans le cas d'erreurs importantes dues a la transmission, la qualite 
du signal diminue fortement. Ces degradations apparaissent lors de la diffusion, d'un 
flux numerique MPEG par exemple, et sont, la plupart du temps, de type 
impulsionnel. Elles peuvent egalement apparattre lors de la diffusion d'un flux audio 
10 sur le reseau Internet, ou lors d'un codage ou d'un decodage. 

Pour ce type de defaut, la qualite peut etre estimee de facon binaire : 
soit le signal n'a pas ete degrade et la qualite dependra du codage initial utilise, soit 
des erreurs ont 6te introduites et des degradations importantes apparaissent. 

L'estimation de la qualite peut alors se faire par des methodes sans 
15 reference, en comptabilisant les degradations detectees sur des intervalles de temps, 
reguliers de Tordre par exemple de la seconde. Des essais subjectifs ont en effet' 
permis d'obtenir une estimation fiable de la qualite percue, a partir du nombre et de la;, 
longueur des interruptions liees a des degradations de type impulsionnel dans un\ 
signal. 

20 Pour tes mesures obtenues avec reference reduite, la methode. 

proposee permet de reduire le debit necessaire au transport de la reference. Cela 
autorise 1'utilisation de voies reservees au debit relativement limite. Ces mesures 
permettent de detecter des degradations autres que les celles dues aux erreurs de 
transmission. 

Ainsi, la presente invention permet une reduction du debit dans le 
cas des mesures avec reference reduite et, de par l'ajout de mesures simples sans 
reference, de conserver des mesures sur les degradations importantes dans le cas d'une 
perte de la reference par exemple, en generant localement un vecteur qui caracterise 
simplement les degradations, et qui pourrait done etre facilement traite et transmis 
30 vers une installation de controle, notamment centralisee. 

Les mesures effectuees le long de la chaine et en divers points du 
reseau, informent le systeme de surveillance et de gestion de la diffusion en television 
numerique, sur ses performances globales. Les mesures des degradations du signal 
informent I'operateur de diffusion sur la qualite de service delivree. 

35 Le procede se caracterise par deux modes de fonctionnement, 

complementaires : 
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a rAHuiF.* i 'qnnr, >rh<* ferhnoloeiaue proposes consiste 

a effectuer une mesure sur le signal audio, a l'entrec. ef une autre a la sortie de la 
chaine de transmission ou tout autre systems a etudier (codeur. decodeur. etc.). Une 
comparison entre ces mesures permet de s'assurer de la "transparence" de la chaine 
5 ou du systeme et d'evaluer Importance des degradations introduites. A la difference 

, ■ f 
de la technique anleneure : 

- le procede effectue une evaluation en temps reel et en temps 

continu. 

- les mesures de reference a l'entree de la chaine represented une 
— quantit £ de d0 nnees tres taible par rapport auX donnees du signaHmdio, d'ou sa 
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classification en « reference reduite ». 

- les donnees ou mesures de reference utilisees sont aussi bien une 
representation reduite du contenu du signal, qu'une mesure de Timportance d'un type 
de degradation. 

L' invention permet de palier a un manque de signal de reference. 
Pour cela, le procede definit des mesures pour les defauts numeriques caracteristiques 
a rechercher. A la difference de la technique anterieure, l'approche proposee permet 
une estimation des degradations introduites sur un signal quelconque. et de maniere 
fiable et cette approche peut etre mise en oeuvre aussi bien a l'echelle d'un reseau de 
transmission que locaiement sur un equipement. En outre, la complexite de calcul 
selon le procede est faible, et 1'indicateur obtenu represente une quantite de donnees 
faible par rapport au flux numerique audio. 

Enfin, le procede peut etre applique indifferemment a des signaux 
purement numeriques ou a des signaux ayant subi apres transmission une conversion 
25 num6rique vers analogique puis analogique vers numerique. 

Les trois premiers procede decrits ci-apres sont du type dit "avec 

reference reduite". 

Pour obtenir une plus grande precision de l'estimation de la qualite, 

certains des parametres developpes utilisent des moderations perceptuelles : Le 

principe des mesures perceptuelles objectives se base sur la transformation de la 

representation physique (pression acoustique, niveau, temps et frequence) en la 

representation psychoacoustique (force sonore, niveau de masquage, temps et bandes 

critiques ou barks) de deux signaux (le signal de reference et le signal a evaluer) afin 

de les comparer. Cette transformation s'opere grace a une moderation de I'appareil 

35 audidf humain (generalement, cette moderation consiste en une analyse spectrale 

dans le domaine des Barks suivie des phenomenes d'etalement). Une distance peut 
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alors etre calculee entre les representations psychoacoustiques des deux signaux, 
distance que Ton peut lier a la qualite du signal a evaluer (plus la distance est faible, 
plus Ie signal a evaluer est proche du signal original et meilleure est sa qualite). 

Le premier precede met en oeuvre un parametre denomme "Ecart de 
5 Comptes Perceptuels". 

Le calcul de ce parametre se decompose en plusieurs etapes, 
necessaires pour tenir compte de la psychoacoustique. Celles-ci sont appliquees sur le 
signal de reference et sur le signal degrade. Ces etapes sont les suivantes : 

Fenetrage du signal temporel en blocs puis, pour chacun des blocs, 

10 calcul de I'excitation induite par le signal en utilisant un modele d'audition. Cette 
representation des signaux tient compte des phenomenes de la psychoacoustique, et 
fournit un histogramme dont les comptes sont les valeurs des composantes basilaires. 
Cela permet de ne prendre en consideration que les composantes audibles du signal et 
done de se limiter a l'information utile. Pour obtenir cette excitation, les 

15 moderations classiques peuvent etre utilisees : attenuation de I'oreille externe et 
moyenne, integration selon les bandes critiques et masquages frequentiels. Les 
fenetres temporelles choisies sont d'environ 42 ms (2048 points a 48 kHz) avec un 
recouvrement de 50%. Cela permet d'obtenir une resolution temporelle de I'ordre de 
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21 ms. 



Plusieurs etapes sont necessaires pour cette moderation. Pour la 
premiere etape, le filtre d'attenuation de I'oreille externe et moyenne est applique a la 
densite spectrale de puissance, obtenue a partir du spectre du signal. Ce filtre prend 
egalement en compte le seuil absolu d'audition. La notion de bandes critiques est 
modelisee par une transformation de I'echelle frequentielle en une echelle basilaire. 
25 L'etape suivante correspond au calcul des excitations individuelles pour tenir compte 
des phenomenes de masquage, gr§ce a la fonction d'etalement frequentiel dans 
I'echelle basilaire et a une addition non lineaire. La derniere etape permet d'obtenir la 
sonie compressee, par une fonction puissance, pour modeliser la sensibilize non 
lineaire en frequence de I'oreille, par un histogramme comportant les 109 composantes 
30 basilaires. 

Les comptes de 1'histogramme obtenu sont ensuite rassembles en 
trois classes. Cette vectorisation permet d'obtenir une representation visuelle de 
devolution de la structure des signaux. Cela permet egalement d'obtenir une 
caracterisation simple et concise du signal et done de disposer d'un parametre de 
35 reference particulierement interessant. 



Plusieurs strategies extent nnur fixer las bomes de ces trois 
comp.es : La plus simple est de separer I'histogramme en trois zones de failles egales. 
Aiasi. les 109 composantes basilaires. (ou les 24 composantes qui constituent 
l'excitation et en constituent une representation simplifiee) representent 24 Barks et 
5 peuvent etre separees aux indices suivants : 

S, = 36 soil z = — *36 « 7,927 Barks (1) 



Sa = 7 3 s oit 3=^*73 = 16,073 Barks (2) 

10 

La deuxieme strategic prend en compte les zones de mise a 
1'echelle ("scaling") de Beerends. En effet une compensation du gain entre 
l'excitation du signal de reference et celle du signal a tester est effectuee par 
l'oreille. les bornes fixees sont alors les suivantes : 

15 

Si = 9 soit z = — *9 = 1,982 Barks (3) 
109 

S 2 = 100 soit Z =—*100 = 22,018 Barks (4) 



La trajectoire est ensuite representee dans un triangle, nomme 
20 triangle des frequences. Pour chaque bloc on obtient trois comptes Q, C 2 et C 3 , done 
deux coordonnees cartesiennes selon les formules suivantes : 



X=C,/N+- 2 



.£iZH (5) 

2 

Y = C 2 /N*sin(jc/3) (6) 
25 avec C, : somme des excitations basilaires pour les hautes 

frequences (au-dessus de S2) 
C 2 : compte associe aux frequences moyennes (composantes 
entre Si et S2) 

et JV= C/+ C 2 + C 3 : Somme totale des valeurs des composantes. 

30 

Un point (X, Y) constituant un vecteur est done obtenu pour chaque 
fenetre temporelie du signal, ce qui correspond a la transmission de deux valeurs par 
fenetre de par exemple 1024 bits, soit un debit de 3 kbits/s pour un signal audio 
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echantillonne a 48 kHz. Pour une sequence complete, la representation associee est 
ainsi une trajectoire parametree par le temps, comme le montre la Figure 3. 

On calcule ensuite de la distance (euclidienne) entre le signal de 
reference et le signal degrade. Dans le cas d'une estimation de la qualite en continu, la 
5 distance entre les points permet d'estimer I'importance des degradations introduites 
entre le signal de reference et le signal degrade. Cette distance peut etre consideree 
comme une distance perceptuelle du fait de l'utilisation des modeles de la 
psychoacoustique. 

Pour estimer une note de qualite pour un signal de plusieurs 
1 0 secondes, il est possible de calculer une mesure globale de la difference entre les deux 
signaux. Pour cela plusieurs metriques sont utilisables. Celles-ci peuvent etre de type 
diffus (moyenne des distances entre les sommets, aire interceptee, ...), locale 
(maximum, minimum des distances entre sommets, ...) et dependre de la position 
dans le triangle. 

II est egalement possible de prendre en compte les differences a . 
peine perceptibles ("Just Noticeable Difference"). Ces seuils permettent de determiner 
1'audibilite des differences qui sont apparues. Us peuvent etre modelises par des zones . 
de tolerance fonction de la position dans le triangle pour tenir compte de la variabilis 
des phenomenes de masquage. 

Dans tous les cas, les deux trajectoires doivent etre synchronises au 

prealable. 

Le principe du calcul de ce parametre comparatif peut etre ainsi ' 
resume par le schema Figure 4. 

Le principal avantage du parametre provient du fait de la prise en 
compte des phenomenes de la psycho-acoustique sans pour autant augmenter le debit 
necessaire au transfert de la reference. Celui-ci permet de reduire la reference a 2 
valeurs pour 1024 echantilions de signal (3 kbits/s). 

Le deuxieme procede met en oeuvre une modelisation autoregressive 

du signal. 

Le principe general de la prediction lineaire est de model iser le 
signal comme etant une combinaison de ses valeurs passees. L'idee est de calculer les 
N coefficients d'un filtre de prediction par une modelisation autoregressive (tout pole). 
Avec ce filtre adaptatif. il est possible d'obtenir un signal predit a partir du signal reel. 
Les erreurs de prediction ou residus sont calcules par difference entre ces deux 
signaux. La presence et la quantite de bruit dans un signal peuvent etre determines 
par l'analyse de ces residus. 
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T a~<* r &c.;r\t t <> r»K*onii« cur 1p ^ifmnl de reference et 

ceux ealcules a partir du signal degrade, et done des niveous do bruit, permei d'estimer 
I'importance des modifications ct defauts inseres. 

La reference a transmettre correspond au maximum des residus sur 
une fenetre temporelle de taille donnee. II n'est en effet pas interessant de transmettre 
tous les residus si le debit de la reference veut etre reduit. 

Pour adapter les coefficients du filtre de prediction, deux methodes 

sont donnees ci-apres a litre d'exemple : 

- L'algorithme de LEVINSON-DURBIN qui est decrit par 
exemple dans l'ouvrage de M. BELLANGER - TrailefnenT numerique Uu signal - 
Theorie et pratique (MASSON ed. 1987) p. 393 a 395. Pour l'utiliser, il faut disposer 
d'une estimation de l'autocorrelation du signal sur un ensemble de N„ echantillons. 
Cette autocorrelation est utilisee pour resoudre le systeme d'equations de Yule-Walker 
et ainsi obtenir les coefficients du filtre predicteur. Seules les N premieres valeurs de 
la fonction d'autocorrelation peuvent etre utilisees, ou N designe l'ordre de 
l'algorithme. e'est-a-dire le nombre de coefficients du filtre. Sur une fenetre de 1024 
echantillons, on garde le maximum de l'erreur de prediction. 

- L'algorithme du gradient qui est decrit par exemple dans 
l'ouvrage precite de M. BELLANGER p. 371 et suivantes. Le principal inconvenient 
du parametre precedent est la necessite, dans le cas d'une implantation sur DSP, de 
stocker les N 0 echantillons pour estimer l'autocorrelation, avoir les coefficients du 
filtre puis calculer les residus. Ce second parametre permet d'eviter cela en utilisant un 
autre algorithme permettant de calculer les coefficients du filtre : l'algorithme du 
gradient. Celui-ci utilise l'erreur commise pour mettre a jour les coefficients. Les 
coefficients du filtre sont modifies dans la direction du gradient de l'erreur quadratique 

instantanee, avec le signal oppose. 

Une fois les residus obtenus par difference entre le signal predit et le 
signal reel, seul le maximum de leurs valeurs absolues, sur une fenetre temporelle de 
taille donnee T, est conserve. Le vecteur reference a transmettre peut ainsi etre reduite 
30 a un seul nombre. 

Apres transmission puis synchronisation, la comparaison consiste en 

un simple calcul de distance entre les maxima de la reference et du signal degrade par 

exemple par difference. 

La Figure 5 resume le principe de calcul de parametre : 
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Le principal avantage des deux parametres est ie debit necessaire au 
transfer! de la reference. Celui-ci permet de reduire la reference a 1 nombre reel pour 
1024 echantillons de signal. 

Par contre, aucun modele de la psychoacoustique n'est pris en 

compte. 

Le troisieme precede met en ceuvre une modelisation autoregressive 
de l'excitation basilaire. 

Par rapport a la prediction lineaire classique, cette methode permet 
de prendre en compte les phenomenes de la psychoacoustique, afin d'obtenir une 
evaluation de la qualite percue. Pour cela, le calcul du parametre passe par une 
modelisation de divers principes de I'audition. Une prediction lineaire modelise ie 
signal comme etant une combinaison de ses valeurs passees. L'analyse des residus (ou 
erreurs de prediction) permet de determiner et d'estimer la presence de bruit dans un 
signal. L'inconvenient majeur Iors de l'utilisation de ces techniques est Ie fait qu'il n'y 
ait aucune prise en compte des principes de la psychoacoustique. Ainsi, il n'est pas ' 
possible d'estimer la quantite de bruit reellement percue. .; 

Le procede reprend le principe general de la prediction lineaire* 
classique. Elle y integre en plus les phenomenes de la psychoacoustique pour I'adapter-- 
a la sensibilite non lineaire en frequence (sonie) et en intensite (tonie) de I'oreille f 
20 humaine. 

On modifie le spectre du signal, par l'intermediaire d'un modele 
d'audition, avant de calculer les coefficients de la prediction lineaire par une 
modelisation autoregressive (tout pole). Les coefficients ainsi obtenus permettent de 
modeliser Ie signal de facon simple tout en tenant compte de la psychoacoustique. Ce 
25 sont ces coefficients de prediction qui seront transmis et serviront de reference lors de 
la comparaison avec le signal degrade. 

La premiere partie du calcul de ce parametre correspond a la 
modelisation des principes de la psychoacoustique en utilisant les modeles d'auditions 
classiques. La deuxieme partie est le calcul des coefficients de prediction lineaire. La 
derniere partie correspond a la comparaison des coefficients de prediction calcules 
pour Ie signal de reference et ceux obtenus pour Ie signal degrade. Les differentes 
etapes de cette methode sont done les suivantes : 

- Fenetrage temporel du signal puis calcul d'une representation 
interne du signal par modelisation des phenomenes de la psychoacoustique. Cette 
etape correspond au calcul de la sonie compressee, qui est en fait l'excitation induite 
par le signal au niveau de 1'oreille interne. Cette representation des signaux tient 
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comptc dec phoi^menes de la psyohrwr«wi.siii|iie. et est obtenue a partir du spectre du 
signal, en utiltanl les modelisations ciassiques : attenuation de l'oreille externe et 
moyenne. integral ion scion les bandes critiques et masquages frequentiels. Cette 
elape du calcul est ideniique au parametre decril precedemment : 
5 - Model isation autoregressive de cette sonie compressee afin 

d'obtenir les coefficients d'un filtre RIF de prediction, tout comme dans une 
prediction lineaire classique. La methode utilisee est celle de l'autocorrelation, par 
resolution des equations de Yule-Walker. La premiere etape pour 1'obtention des 
coefficients de prediction est done le calcul de l'autocorrelation du signal. 

— En considerant la sonie compressee co m me une pui ss anc e sp eetrate- 

filtree, il est possible de calculer l'autocorrelation du signal percu par transformation 

de Fourier inverse. 

Une des methodes pour resoudre ce systeme d'equations de Yule- 
Walker et ainsi obtenir les coefficients d'un filtre predicteur est I'utilisation de 
15 l'algorithme de Levinson-Durbin. 

Ce sont les coefficients de prediction qui constituent le vecteur de 
reference a transmettre jusqu'au point de comparison. Les transformations utilisees 
lors du calcul final sur le signal degrade, sont les memes que pour la phase initiale sur 
le signal de reference. 

20 - Estimation des degradations par le calcul d'une distance entre les 

vecteurs issus de la reference et du signal degrade. C'est une comparaison des 
vecteurs de coefficients obtenus pour la reference et pour le signal audio transmis, qui 
permet d'estimer les degradations introduites lors de la transmission. Celle-ci doit se 
faire sur un nombre adapte de coefficients. Plus le nombre est important, plus les 

25 calculs peuvent etre precis, mais plus le debit necessaire a la transmission de la 
reference est eleve. Plusieurs distances peuvent etre utilisees pour comparer les 
vecteurs de coefficients. L'importance relative des coefficients peut par exemple etre 
prise en compte. 

Le principe de la methode se resume selon le schema suivant (Figure 

30 6). 

La modelisation des phenomenes de la psychoacoustique permet 
d'obtenir 24 composantes basilaires. L'ordre N du filtre de prediction est de 32. A 
partir de celles-ci, 32 coefficients de l'autocorrelation sont estimes, ce qui donne 32 
coefficients de prediction dont on ne conserve que 5 a 10 coefficients en tant que 
35 vecteur indicateur de qualite, par exemple les 5 a 10 premiers coefficients . 
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Le principal avantage du parametre provient de la prise en compte 
des phenomenes de la psychoacoustique. Pour faire cela, il a ete necessaire 
d'augmenter le debit necessaire au transfert de la reference a 5 ou 10 valeurs pour 
1024 echantillons de signal (21 ms pour un signal audio echantillonne a 48 kHz), soit 
un debit de 7,5 a 1 5 kbits/s. 

Les methodes suivantes peuvent etre utilisees avec ou sans 
reference. Cela permet de conserver des mesures de detection des degradations les 
plus importantes, meme dans le cas ou aucun parametre de reference n'est disponible 
au point de controle, au moment ou la comparaison devrait etre effectuee. 

La premiere de ces methodes met en oeuvre une detection de plats 
dans I'activite du signal. 

La notion d'activite, qui peut etre approximee par une operation de 
derivation dans le signal audio, est utilisee pour reperer les ruptures et interruptions 
dans le signal temporel. 

Ces types de defauts sont caracteristiques d'erreurs de decodage 
apres transmission du flux numerique audio ou lors de la diffusion de sequences 
sonores sur Internet. Cela se produit quand le debit du reseau devient insuffisant pour 
assurer I'arrivee de toutes les trames necessaires a I'instant du decodage par exemple. 

Ces degradations, qui introduisent des zones d'activite tres faible, se 
traduisent au niveau auditif par differentes sensations chez l'auditeur : coupure du son, 
flou sonore, bruit impulsionnel... 

La premiere etape du calcul du parametre correspond a I'estimation 
de I'activite temporelle du signal. Pour ce faire, l'operateur de derivee seconde est 
utilise. II permet en effet d'avoir une estimation suffisamrnent precise de I'activite et 
25 ne demande que tres peu de calculs. 

Pour simuler de facon simple cette operation de derivee seconde, la 
formule suivante est utilisee : 

f " (* o )= f (x o + 2)- 2.f fx 0 )+ f ( x 0 - 2) ( 7 ) 

30 ou 

f"(xo)=f(x 0 +l)-2.f(x 0 )+f(x 0 -l) ( 8 ) 

oiifft) correspond a la valeur de l'echantillon a I'instant t. 
Une moyenne glissante, sur N valeurs (par exemple N = 21, ce qui 
35 correspond a 0,5 ms pour une frequence d'echantillonage de 48 KHz), permet ensuite 
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dc lifter !cs variations cfe enurhp nhtenue el eviter ainsi les fausses detections, Un 
seul resultat va etre conserve par bloc de M resultats (M correspond par exemple a 
2048 cchanitllons audio). Cesi le minimum de M moyennes qui est conserve puis 
iransmis. Le parametre est ainsi obtenu a I'instant t par la formule suivante : 



( 1 ^ 

Plats (t)=min — S|y(t-k-iJ| 



^ N ie N j 



keM 

o \xy (t) corespend-4-Ua cti v ite 



(9) 



Si le parametre est utilise avec reference, alors, apres 
10 synchronisation des donnees, 1'etape de comparaison consiste en une simple difference 
qui permet de reperer les zones ou le signal a ete remplace par des plats de decodage. 
Seuls les instants, ou Pactivite est fortement diminuee sur le signal degrade, sont 
interessants. Ainsi la formule de comparaison est la suivante : 

1 5 d(t) = max (0, Plats r (t) - Plats d (t)) (10) 



ou Plats/t) et Plats d (t) sont respectivement le parametre 
calcule sur la reference et sur le signal degrade. 

20 Pour reduire encore le debit necessaire au transport de la reference, 

il est egalement possible de comparer le parametre Plats (0, calcule sur le signal, avec 
un seuil S et ainsi obtenir un parametre binaire. Lors de l'apparition des degradations, 
la chute d ! activite est en effet suffisamment importante pour etre detectee de la sorte. 

Dans ce cas, la comparaison sert uniquement a confirmer la presence 
25 des degradations. Plus aucune confusion n'est possible entre les zones de silence et les 
zones d'activite faible du signal. L ! utiIisation du parametre sans reference permet 
neanmoins de reperer les degradations. 

Pour passer d'un parametre de detection des degradations, a 
I'estimation d'une note de qualite perceptuelle, I 1 importance psychoacoustique des 
30 degradations detectees doit etre analysee. Suivant leur longueur et leur nombre la 
degradation penjue sera tres differente. 

L'etape suivante consiste done a utiliser des courbes de 
correspondance a partir du parametre binaire. Ces courbes permettent d'obtenir une 
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note de qualite a partir de la longueur cumulee et du nombre de degradations 
impulsionnelles detectees par seconde. Ces courbes sont etablies a partir de tests 
subjectifs. Differentes courbes peuvent etre etablies en fonction du type des signaux 
audio (parole ou musique principaiement). Une fois i'estimation obtenue, il est 
egalement possible d'utiliser un filtre simulant la reponse d'un paneliste. Cela permet 
de tenir compte de I'effet dynamique des votes et des temps de reaction face aux 
degradations. 

Le parametre peut etre resume selon le schema suivant Figure 7. 
Le principal avantage du parametre est la possibility de faire des 
mesures sans reference. Un autre point interessant est le debit necessaire au transfert 
de la reference. Celui-ci permet de reduire la reference a 1 nombre reel soit un debit 
de 1,5 kbits/s(voire meme 1 bit en cas de seuillage soit un debit de 47 bits/s) pour 
1024 echantillons de signal. II est egalement a noter que 1'algorithmes est tres simple 
et de complexite reduite, ce qui permet son implantation en parallele avec d'autres 
15 parametres. 

Le deuxieme de ces precedes met en oeuvre une detection de pics de 

1'activite. 

Ce parametre, tout comme le precedent est base sur 1'activite du 
signal. Celui-ci permet de detecter les decrochages, ruptures, coupures d'une partie du 
signal audio et les echantillons aberrants en recherchant les pics dans 1'activite du 
signal. 

Ainsi, cette fois, seuls les maxima pour des blocs de M echantillons 
sont conserves. II n'est pas interessant de transmettre puis comparer la totalite des 
valeurs de 1'activite, principaiement si 1'objectif est d'obtenir une methode ne 
25 necessitant qu'une reference reduite. 

Le parametre est ainsi obtenu a l'instant t par la formule suivante : 
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ActTemp (t) = max (y(t-k)) (i i) 

ouyft) est 1'activite du signal calculee par le filtre. 



Dans le cas d'une utilisation avec reference, ce meme calcul est 
effectue sur le signal de reference et sur le signal degrade. 



Apres synchronisation des deux flux, la comparaison de ces maxima 
1'activite permet de detecter les zones ou le signal a ete perturbe. 
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Pour cffccfticr ccitc camparaiscn. !e rapport enire la valeur mesuree 
sur la reference et celle obienue sur le signal degrade permet la detection des 
degradations. II est possible de detecter les zones ou l'activite a ete fortement 
diminuee en choisissant le maximum du rapport et de son inverse. 
5 La formule suivante est utilisee : 



d(t)= max 



' ActTemp. (t) ActTemp r (t)^ 



ActTemp,. (t) * ActTemp .(t) 
V r a / 



(12) 



ou ActTemp At) z\ ActTemp d (t) sont respectivement le parametre 
10 calcule sur la reference et sur le signal degrade. 

Dans le cas ou la reference n'est pas disponible, il est possible 
d'utiliser un seuillage pour detecter si le parametre est superieur a un seuil S', ce qui 
indique la presence de degradations. Pour eviter de fausses detections dues a des 

15 signaux au caractere impulsionnel (attaques, percutions, ...), le seuil doit avoir une 
valeur assez importante, ce qui peut entrainer des non detections. 

De meme que dans le cas precedent, l'utilisation des courbes de 
correspondence est possible pour estimer une qualite perceptuelle. La methode 
consiste a integrer les degradations detectees par ce parametre, aux autres trouvees par 

20 le parametre precedent par exemple, et ainsi obtenir une estimation perceptuelle 
globale. 

Le principe du parametre est presente dans le schema suivant Figure 

8. 

Tout comme pour le parametre precedent, 1'avantage du parametre 
25 reside dans la possibility de faire des detections sans reference. 

La complexite reduite et le faible debit necessaire au transport de la 
reference, limite a 1 valeur, soit un debit de 1,5 kbits/s (voire meme 1 bit en cas de 
seuillage, soit un debit de 47 bits/s) pour 1024 echantillons de signal echantillonne a 
48 kHz, sont egalement des points interessants. 
30 Le procede ci-apres met en ceuvre 1'etude du minimum du spectre du 

signal pour localiser les degradations. 

II est principalement utile pour la detection de degradations dites 
"impulsionnelles". II est en effet important de noter que la majorite des degradations 
introduites, lors de la transmission d'un signal audio, sont de ce type. Celles-ci sont 
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tres localisees en temps et tres etalees en frequence. Ainsi, en les assimilant a un bruit 
blanc large bande de tres courte duree dans le signal, il est possible de les detecter en 
analysant les caracteristiques du spectre. 

La premiere etape du calcul de ces parametres correspond a 
^estimation du spectre du signal. Pour cela, Ie signal est fenetre en blocs de N 
echantillons (N = 1024 ou 2048 par exemple). avec un recouvrement de N/2 
echantillons. Cela permet d'avoir une resolution temporelle suffisante et d'analyser 
tout le signal, en tenant compte du fait que l'utilisation des fenetrages attenue 
fortement l'influence des bords de ces fenetres temporelles. 

Cela permet egalement de ne pas trop penaliser le temps de calcul 
lors de l'implantation. Une transformation de Fourier rapide permet, ensuite, de passer 
dans le domaine frequentiel. 

L'apparition d'une degradation, augmente le minimum du spectre, du 
fait de l'introduction de bruit blanc large bande dans toutes les composantes 
frequencies du spectre. C'est ce principe qui a permis de developper ce parametre, . 
calcule simplement selon la formule : 



MinSpe = minfo. ) pour 1 <> i < N (13) 
avec Xj les N composantes du spectre X en dB (par calcul de 

20 distance). 

Dans Ie cas d'une utilisation avec reference, une comparison - 
simple, apres synchronisation des valeurs obtenues sur la reference et le signal 
degrade, n'est en general pas suffisante pour la detection des degradations. En effet, la 
variabilis des minima obtenus avec un signal non degrade est importante. 

II faut ainsi faire des comparaisons par blocs de M valeurs selon le 
principe suivant : Pour chaque bloc, il n'est conserve que le maximum des M minima 
obtenus sur la reference. Cela fournit une valeur de reference du niveau de bruit initial 
pour le bloc. Cette valeur est comparee aux M minima obtenus sur le signal degrade. 

En ne conservant que les instants ou les minima sont augmentes, il 
30 est possible de detecter les moments ou du bruit a ete ajoute au signal. 

La distance obtenue est ainsi, pour chaque instant t : 



d(t)=max 



^ X daW)- S min k (x r .(t)) 



,0 



(14) 
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reference. 



degrade, 



ou x r ., est la p-'™ dec N composantes clu specire obtenu sur la 
x d .i est la i c ' mc des N composantes du spectre obtenu sur le signal 



et min k le k teme des M minima du bloc considere. 

Si la reference n'est pas disponible, il est possible d'utiliser une 

moyenne des minima du spectie ubtenus -preeede mmcnt par l' alg oritbme^, e reste d e 

la comparaison se fait ensuite de la meme facon. 
10 De meme que dans les cas precedents, l'utilisation des courbes de 

correspondance est possible en integrant les degradations detectees par ce parametre 
aux autres et obtenir ainsi une mesure perceptuelle. 

La methode peut se resumer ainsi par les deux schemas suivants 

Figure 9. 

15 Encore une fois, le principal avantage de ces parametres est la 

possibility de faire des mesures sans reference. Un autre point interessant est le debit 
necessaire au transfert de la reference. Celui-ci permet de reduire la reference a 1 
nombre reel et meme 1 entier, soit un debit d'au plus 1,5 kbits/s pour N (par exemple 
1024) echantillons de signal. La complexite reduite de l'algorithme est egalement un 

20 atout. 

Dans le procede suivant, selon lequel on analyse 1'Aplatissement 
Spectral, deux parametres, SFj et SF 2 , permettent d'estimer "l'aplatissement" du 
spectre, d'ou le terme parfois utilise d M, aplatissement statistique". lis correspondent a 
l'etude de la forme du spectre et a son evolution le long de la sequence etudiee. Lors 
25 de Tapparidon d'un bruit large bande dans le signal, une composante continue de type 
bruit blanc provoquera un aplatissement du spectre. 

Parametre SFi 

Lors de 1'apparition d'une degradation, les composantes qui avaient 
des valeurs proches de zero, vont passer a des valeurs non negligeables. Le produit des 
30 composantes du spectre va ainsi fortement augmenter, alors que leur somme ne 
variera que tres peu. Pour exploiter ceci, le parametre d'estimation de l'aplatissement 
du spectre SFj est calcule selon la formule suivante : 
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SF-^lO.IoglO 



f Moyenne Ari thmetique (X) ) _ n 
k MoyenneGeo metrique (X) J iU ' IO S 10 



( \ 
1 N 




(15) 
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avec X, le spectre du signal et x, les composantes du spectre. 

Ce parametre est calcule de la meme maniere sur la reference et sur 
le signal degrade. Par comparaison il est ensuite possible d'estimer le niveau de bruit 
blanc insere, et par suite les degradations. 

Parametre SF 2 

Pour calculer ce parametre, le coefficient d'aplatissement statistique, 
appele "kurtosis" ou "concentration" a ete utilise. L'estimation est faite a partir des 
moments centres d'ordre 2 et 4. lis permettent d'estimer la forme du spectre par 
rapport a une distribution normale au sens statistique du terme. 

Le calcul correspond au rapport entre le moment centre d'ordre 4 et 
le moment centre d'ordre 2 (variance) au carre des coefficients du spectre. La formule 
utilisee est ainsi la suivante : 



SF = m 4 - m 4 (X) 



m 2 (X) 



avec moments centres m k definis par : 



= N, 



2 Ui -xj 

i=l 



(16) 



m k = 



_i=l 



N 



(17) 
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ou X est la moyenne arithmetique des N composantes Xj du spectre X en dB. 

De meme que pour le parametre SF,, plus la valeur obtenue est 
25 importante, plus le signal est concentre et moins il y a de bruit dans le signal. Celui-ci 
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esf calculc :;;:r la reference et sur !e signal degrade. Par comparaison le niveau de bruit 

blane insere est estime. 

Le schema de la Figure 10 presente Ie principe (valable pour les 

deux parametres ci-dessus) : 
5 Dans le cas d'une comparaison avec la reference, une simple 

distance du type difference ou autre est suffisante pour detecter les degradations. Si 
aucune reference n'est disponible, il est necessaire d'effectuer une detection des pics 
dans la variation des parametres pour rechercher les degradations. Cela peut etre fait 
en utilisant la technique, classique en traitement de l'image, de la morphologie 
"To mathematique a niveau de gns (erosions et dilatations). 
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Les avantages et limitations de ces parametres sont identiques a ceux 
des parametres precedents : debit necessaire limits, sans reference possible et 
utilisation des courbes de correspondance pour estimer l'importance perceptuelle des 
degradations. 

Dans le cadre de la surveillance d'un reseau de diffusion en 
television numerique. le signal audio de reference correspond au signal a l'entree du 
reseau de diffusion. Les parametres de reference sont calcules sur ce signal, puis 
transmis via une voie de donnee speciftque, jusqu'au point de mesure souhaite. C'est a 
ce point que sont calcules les meme parametres necessaires a la comparaison pour 
l'etablissement des mesures avec reference reduite. Les mesures sans reference sont 
egalement calculees. Dans le cas ou les parametres de reference ne seraient pas 
disponibles (non presents, errones, ...) ces mesures sont suffisantes pour detecter les 
erreurs les plus importantes. Les sous-systemes en pointilles de la Figure 11 ne sont 

alors plus utilises. 

Les mesures obtenues sans reference et celles obtenues avec 
reference reduite (dans le cas ou elles ont pu etre calculees) sont utilisees par un 
modele pour estimer l'importance de la degradation introduite lors de la diffusion. 

Le schema de la Figure 11 resume cet exemple de realisation : 
Plusieurs points de mesure peuvent ainsi etre etablis. Une fois ces 
30 estimations de degradations obtenues, il est. aise de les transmettre vers un centre de 
surveillance du reseau, ce qui permet d'avoir une vue d'ensemble des performances du 
reseau. 

Le meme schema que precedemment peut etre utilise pour visualiser 
(avec ou sans reference) les performances de la diffusion de radios sur Internet. Dans 
35 ce cas, la voie de donnee utilisee pour transporter les parametres de reference peut etre 
le reseau lui-meme, tout comme pour renvoyer les notes estimees au centre de 
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surveillance. Le signal de reference correspond au signal envoye par le serveur, et Ie 
signal degrade est celui decode au point de mesure choisi. Cela peut par exemple 
servir a choisir le serveur le plus approprie en fonction du lieu de connexion en 
accedant aux donnees d'un centre de surveillance. Le schema (Figure 12) suivant 
5 illustre ce mode de realisation dans le cas ou les parametres de reference sont envoyes 
par le reseau et ou les notes obtenues utilisent une voie de transmission specif ique. 

Un procede selon Tinvention est applicable a chaque fois qu'il est 
necessaire d'identifier des defauts sur un signal audio qui a ete transmis par un reseau 
de diffusion quelconque (cable, satellite, hertzien, Internet, DVB, DAB, ...). 
10 Le procede propose exploite deux classes de methodes : les 

techniques avec reference reduite et celles sans reference. II est particulierement 
interessant lorsque le debit disponible pour la transmission de la reference est limite. 

Ainsi, cette invention est applicable a des fins d* exploitation pour les 
equipements de metrologie et pour les systemes de supervision des reseaux de 
15 distribution des signaux audio. Une de ses caracteristiques avantageuses reside dan^ 
Tassociation des mesures effectuees avec et sans reference. Enfin, cette invention 
correspond aux besoins imposes dans les systemes de gestion de la qualite de service. t; 
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REVENDICATfONS 
L Precede devaluation qualitative d'un signal audio numerique, 
caracterise en ce qu'il met en ceuvre en temps reel et en temps continu dans des 
fenetres temporelles successives, le calcul d^un indicateur de qualite constiiue par un 
5 vecteur associe a chaque fenetre temporelle. 

2. Procede selon la revendication 1, caracterise en ce que ledit 
vecteur a une dimension au moins cent fois inferieure au nombre d'echantillons audio 
d'une fenetre temporelle, cette dimension etant par exempie comprise entre 1 et 10 et 
de preference entre 1 et 5. 

Yo 3. Procede selon une des revendicatiOrtS 1 ou 2, caiacteiise en ce que- 

la generation d'un dit vecteur indicateur de qualite met en ceuvre pour un signal audio 
de reference et pour le signal audio a evaluer, les etapes suivantes : 

a) calculer pour chaque fenetre temporelle la densite spectrale de 
puissance du signal audio et iui appliquer un filtre representatif de P attenuation de 

15 I 'oreille interne et moyenne pour obtenir une densite spectrale f iitree, 

b) calculer a partir de la densite spectrale filtree les excitations 
individuelles a l'aide de la fonction d'etalement frequentiel dans Pechelle basilaire, 

c) determiner a partir desdites excitations individuelles la sonie 
compressee a l'aide d'une fonction modelisant la sensibilite non lineaire en frequence 

20 de Poreille, pour obtenir des composantes basilaires, 

d) separer les composantes basilaires en classes, de preference en 
trois classes, et calculer pour chaque classe un nombre C representant la somme des 
frequences de cette classe, ledit vecteur etant constitue par lesdits nombres C, 

e) calculer une distance entre les vecteurs du signal audio de 
25 reference et du signal audio a evaluer associes a chaque fenetre temporelle pour 

realiser une evaluation de la degradation du signal audio. 

4. Procede selon une des revendications 1 ou 2, caracterise en ce que 
la generation d'un dit vecteur indicateur de qualite met en ceuvre, pour le signal audio 
de reference et pour le signal audio a evaluer, les etapes suivantes : 
30 a) calculer N coefficients d'un filtre de prediction par une 

model isation autoregressive, 

b) determiner dans chaque fenetre temporelle le maximum du residu 
par difference entre le signal predit a Taide du filtre de prediction et le signal audio, 
ledit maximum du residu de prediction constituant ledit vecteur indicateur de qualite, 
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c) calculer une distance entre Iesdits vecteurs du signal audio de 
reference et du signal audio a evaluer associes a chaque fenetre temporelle pour 
realiser une dite evaluation de la degradation du signal audio. 

5. Precede selon la revendication 1, caracterise en ce que la 
5 generation d'un dit vecteur indicateur de qualite met en oeuvre pour le signal audio de 
reference et pour le signal audio a evaluer, les etapes suivantes : 

a) calculer pour chaque fenetre temporelle la densite spectrate de 
puissance du signal audio et lui appliquer un filtre representatif de 1 'attenuation de 
l'oreille interne et moyenne, pour obtenir une fonction d'etalement frequentiel dans 

10 I'echelle basilaire, 

b) calculer des excitations individuelles a partir de la fonction 
d'etalement frequentiel dans I'echelle basilaire, 

c) obtenir a partir desdites excitations individuelles la sonie 
compressee a partir d'une fonction modelisant la sensibilite non lineaire en frequence 

15 de l'oreille, pour obtenir des composantes basilaires , •;. 

d) calculer a partir desdits composantes basilaires N' coefficients de 
prediction d'un filtre de prediction par une moderation auto-regressive, 

e) generer pour.chaque fenetre temporelle un dit vecteur indicateur 
de qualite a partir de certains seulement des N* coefficients de prediction. 

6. Procede selon la revendication 5, caracterise en ce que le vecteur- 
indicateur de qualite comporte entre 5 et 10 desdits coefficients de prediction. 

7. Procede selon la revendication 1, caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en ceuvre au moins pour le signal 
audio a evaluer les etapes suivantes : 

a) calcul d'une activite temporelle du signal dans chaque fenetre 
temporelle, 

b) calculer une moyenne glissante sur N, vaieurs successives de 
l'activite temporelle, 

c) conserver la valeur minimale parmi M, vaieurs successives de la 
30 moyenne glissante. 

8. Procede selon la revendication 7, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par ladite valeur minimale. 

9. Procede selon la revendication 7, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par une valeur binaire resultant de la 

35 comparaison de ladite valeur minimale avec un seuil donne. 
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10 Precede selon une des revendications 7 a 9. caracterise en ce 
qu'il met en ceuvre le calcul d'nne note de qualite en determinant un intervalle de 
temps cumule pendant lequel ladite valeur minimale est inferieure a un seuil donne S, 
et/ou en determinant le nombre de fois par seconde ou ladite valeur minimale est 

5 inferieure a un seuil donne S'i. 

11. Procede selon une des revendications 7 a 10, caracterise en ce 
que lesdites valeurs minimales sont generees a la fois pour le signal audio de reference 
et pour le signal audio a evaluer et en ce qu'un vecteur de qualite est genere par 
comparaison entre les valeurs minimales correspondantes du signal audio de reference 
To et du signal audio a evaluer 



12. Procede selon la revendication 1, caracterise en ce que la 
generation d*un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer les etapes suivantes : 

f) calculer une activite temporelle du signal dans chaque fenetre 

15 temporelle, 

g) calculer une moyenne glissante sur N 2 valeurs successives de 

1' activite temporelle, 

h) conserver la valeur maximale parmi M 2 valeurs successives de 

la moyenne glissante. 

20 13. Procede selon la revendication 12, caracterise en ce que Iedit 

vecteur indicateur de qualite est constitue par ladite valeur maximale. 

14. Procede selon la revendication 12, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par une valeur binaire resultant de la 
comparaison de ladite valeur minimale avec un seuil donne S 2 . 

25 15. Procede selon la revendication 12, caracterise en ce qu'un 

vecteur indicateur de degradation est genere par comparaison entre la valeur maximale 
obtenue sur le signal audio de reference et la valeur maximale correspondante obtenue 
sur le signal audio a evaluer. 

16. Procede selon la revendication 1, caracterise en ce que le 

30 generateur d'un dit vecteur indicateur de qualite met en ceuvre au moins pour le signal 
audio a evaluer le calcul de la transformee de Fourier dans des blocs successifs de N 3 
echantillons constituant desdites fenetres temporelles et calculer la valeur du 
minimum du spectre dans M 3 blocs successifs, ladite valeur du minimum du spectre 
constituant un vecteur indicateur de qualite. 

35 17. Procede selon la revendication 16, caracterise en ce qu'il 

comporte une etape devaluation de l'introduction de bruit dans le signal audio a 
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10. Precede selon une des revendications 7 a 9, caracterise en ce 
qu'il met en oeuvre le calcul d'une note de qualite en determinant un intervalle de 
temps cumule pendant lequel ladite valeur minimale est inferieure a un seuil donne Sj 
et/ou en determinant le nombre de fois par seconde ou ladite valeur minimale est 

5 inferieure a un seuil donne S'i. 

11. Precede selon une des revendications 7 a 10, caracterise en ce 
que lesdites valeurs minimales sont generees a la fois pour le signal audio de reference 
et pour le signal audio a evaluer et en ce qu'un vecteur de qualite est geuere par 
comparaison entre les valeurs minimales correspondantes du signal audio de reference 

10 et du signal audio a evaluer. 

12. Proced£ selon la revendication 1, caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer les etapes suivantes : 

f) calculer une activite temporelle du signal dans chaque fenetre 

15 temporelle, 

g) calculer une moyenne glissante sur N 2 valeurs successives de 
F activite temporelle, 

h) conserver la valeur maximale parmi M 2 valeurs successives de 
la moyenne glissante. 

20 13 - Procede selon la revendication 12, caracterise en ce que ledit 

vecteur indicateur de qualite est constitue par ladite valeur maximale. 

14. Precede selon la revendication 12, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par une valeur binaire resultant de la 
comparaison de ladite valeur maximale avec un seuil donne S 2 . 

15 15 - Procede selon la revendication 12, caracterise en ce qu'un 

vecteur indicateur de degradation est g e n ere par comparaison entre la valeur maximale 
obtenue sur le signal audio de reference et la valeur maximale correspondante obtenue 
sur lc signal audio a evaluer. 

16. Precede selon la revendication i, caracterise en ce que le 

0 generateur d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer le calcul de la transformee de Fourier dans des blocs successifs de N 3 
echantillons constituant desdites fenetres temporelles et calculer la valeur du 
minimum du spectre dans M 3 blocs successifs, ladite valeur du minimum du spectre 
constituant un vecteur indicateur de qualite. 

5 17. Precede selon la revendication 16, caracterise en ce qu'il 

comporte une etape devaluation de l'introduction de bruit dans lc signal audio a 
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evaluer en comparant la valeur dudit minimum di« spectre* d»ns M . blocs successifs 
associe au signal audio transmis avec la valeur maximale des M, minima obtenues 
dans les My memes blocs successifs associes au signal audio de reference. 

18. Procede selon la revendication 16, caracterise en ce qu'il 
5 corriporle une etape d ? evaluation de T introduction de bruit dans le signal audio a 

evaluer en comparant la valeur dudil minimum du spectre dans M : . blocs successifs 
avec une valeur moyenne des minima du spectre obtenus dans des blocs anterieurs 
auxdits M 3 blocs successifs. 

19. Procede selon la revendication 1, caracterise en ce qu'il met en 
To oeuvre au moins pour le signal audio a evaluer le calcul d'Un dil veeieui mdfcateui de 

qualite constitue par d'un parametre d'aplatissement du spectre qui est le rapport entre 
une moyenne arithmetique et une moyenne geometrique des composantes du spectre 
du signal. 

20. Procede selon la revendication 19, caracterise en ce qu'il met en 
15 oeuvre un indicateur de detection d'une degradation du signal audio par introduction 

d'un bruit large bande en comparant ledit parametre d'aplatissement du spectre entre 
le signal audio de reference et le signal audio a evaluer. 

21. Procede selon une des revendications precedentes, caracterise en 
ce que le signal audio a evaluer est un signal audio transmis numeriquement. 

20 22. Procede selon une des revendications precedentes, caracterise en 

ce que le signal audio a evaluer est un signal audio numerique auquel a ete applique 
un codage numerique. 

23. Procede selon la revendication 22, caracterise en ce que ledit 
codage numerique est un codage a reduction de debit 
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